听觉 预测 编码 : 对 声音 重复 和 变化 的 神经 反应 
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摘 要 预测 编码 被 认为 是 脑 与 复杂 环境 交互 的 重要 机 制 之 一 ， 有 效 感知 外 界 环境 并 对 
未 来 事件 做 出 预测 ， 对 个 体 生存 有 着 至 关 重 要 的 意义 。 人 类 大 脑 会 基于 感觉 输入 以 从 
代 的 方式 持续 优化 表征 外 部 环境 的 内 部 模型 ， 并 不 断 预测 接 下 来 的 感觉 输入 。 以 听觉 
模 态 为 例 ， 人 类 及 动物 对 声音 重复 和 听觉 变化 的 神经 反应 (如 失 匹 配 负 波 和 刺激 特异 性 
适应 ) 是 大 脑 预测 编码 的 重要 体现 ， 表 现 为 重复 抑制 和 预测 误差 。 结 合 人 类 和 动物 模型 
在 此 理论 框架 下 开展 跨 物 种 研究 将 有 助 于 加 深 我 们 对 听觉 加 工 ， 甚 至 是 大 脑 工作 机 种 
的 认识 。 
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1 ”引言 
对 外 界 环境 进行 快速 有 效 地 感知 并 确定 感觉 信息 的 来 源 ， 是 感觉 系统 的 首要 功能 。 
以 听觉 为 例 ， 外 界 环 境 中 往往 含有 大 量 并 行 发 生 的 且 无 论 在 时 域 上 还 是 频 域 上 声学 特 
性 都 相互 重用 的 声音 事件 。 然 而 ， 面 对 这 些 看 似 毫 无 章法 的 声音 信息 时 ， 大 脑 却 能 有 
效 地 将 其 归 类 和 组 织 (Bregman, 1994)， 从 而 方便 个 体 轻 松 地 选择 信息 ， 再 认 声 音 模 式 
以 及 探测 新 异 刺激 等 。Niiiitinen,，Tervaniemi, Sussman, Paavilainen 和 Winkler (2001) 将 
这 种 在 感觉 皮层 上 进行 的 认 知 活动 称 为 初始 感觉 智力 (primitive sensory intelligence)。 与 
传统 观点 认为 大 脑 仅 被 动 接 收 “ 自 下 而 上 ”的 信息 输入 不 同 ， 这 种 观点 还 强调 了 大 脑 
对 感觉 信息 “ 自 上 而 下 ”的 调节 。 更 重要 的 是 ， 大 脑 会 基于 感觉 输入 以 迭代 的 方式 持 
续 优化 表征 外 部 环境 的 内 部 模型 ， 并 不 断 预测 接 下 来 的 感觉 输入 。 这 一 概念 最 先 由 
Rao 和 Ballard (1999) 基 于 视觉 模 态 提出 ， 他 们 将 视觉 加 工 视 为 一 种 预测 编码 (predictive 
coding)。 具 体 而 言 ， 感 觉 系 统 采用 预测 编码 的 方式 对 每 一 个 层级 的 信息 进行 处 理 。 每 
个 层级 接收 自 下 而 上 的 信息 输入 和 自 上 而 下 的 预测 。 如 果 输 入 的 信息 和 现 有 的 预测 相 
矛盾 ， 那 么 误差 信号 就 会 产生 并 向 上 传送 ， 以 在 更 高 水 平 调整 预测 。 修 正 后 的 预测 向 
下 传递 预测 信号 ， 并 在 较 低 水 平 依 此 产生 预期 ， 从 而 抑制 预测 误差 。 后 来 ， 预 测 编码 
的 概念 被 广泛 应 用 于 听觉 模 态 (Friston, 2005; Rubin, Ulanovsky, Nelken, & Tishby, 2016), 
这 主要 得 益 于 研究 者 们 对 听觉 失 匹 配 负 波 (mismatch negativity, MMN) 和 刺激 特异 性 适 
应 (stimulus-specific adaptation, SSA) 的 充分 研究 。 


预测 编码 被 认为 是 脑 与 复杂 环境 交互 的 重要 机 制 之 一 。 基 于 这 个 理论 框架 ， 大 量 
理论 、 实 证 和 计算 模型 的 研究 迅速 开展 。 为 更 好 地 理解 预测 编码 是 如 何在 听觉 皮层 上 
进行 的 ， 本 文 从 实证 研究 的 角度 总 结 了 人 类 及 动物 对 声音 重复 和 听觉 变化 的 神经 反应 ， 
并 讨论 了 预测 编码 存在 于 听觉 模 态 的 两 个 主要 证 据 : 重复 抑制 (repetition suppression) 
和 预测 误差 (prediction error)。 具 体 而 言 ， 文 章 首 先 梳理 了 人 类 听觉 MMN 的 相关 研究 ， 
并 基于 预测 编码 的 视角 解释 了 大 脑 自 上 而 下 的 活动 对 MMN 所 涉及 的 不 同 加 工 阶段 的 
影响 ， 然 后， 文章 以 动物 模型 为 研究 对 象 ， 以 SSA 为 切入 点 ， 进 一 步 讨 论 了 预测 编码 
的 神经 基础 ， 最 后 ， 文 章 讨论 了 预测 编码 作为 一 种 理论 框架 目前 所 面临 的 困境 和 未 来 
发 展 的 趋势 ， 从 而 提示 开展 跨 物 种 研究 对 加 深 理解 听觉 加 工 机 制 的 重要 性 。 


-> 


2 ”基于 人 类 的 听觉 预测 编码 研究 
2.1 听觉 MMN 

MMN 被 认为 是 反映 变异 探测 (deviance detection) 的 良好 的 神经 指标 (Näätänen, 
Paavilainen, Rinne, & Alho, 2007; Winkler, 2007)。 诱 发 MMN 的 经 典范 式 为 oddball 范式 ， 
即 以 不 同 的 发 生 概 率 交 蔡 呈 现 两 种 或 多 种 声音 刺激 (Niiitinen，Pakarinen，Rinne，《 
Takegata, 2004)。 不 同 的 声音 刺激 可 以 是 空域 上 的 不 同 (如 空间 位 置 )， 可 以 是 频 域 上 的 
不 同 (如 音 高 、 音 色 )， 也 可 以 是 时 域 上 的 不 同 (如 刺激 时 长 、 刺 激 间 隔 )(Niiitinen et al., 
2007)。 频 繁重 复出 现 和 偶尔 随机 出 现 的 声音 刺激 分 别 被 称 为 标准 刺激 (standard) 和 变异 
刺激 (deviant)。MMN 指 的 是 标准 刺激 和 变异 刺激 所 诱发 的 神经 响应 之 间 的 差异 波 
(difference wave)， 通 常 在 变异 刺激 呈现 后 150~250 ms 出 现 。MMN 的 分 布 主要 集中 在 
头皮 的 前 中 部 (Naitanen, Paavilainen, & Reinikainen, 1989)， 其 主要 发 生源 被 定位 在 听觉 
皮层 和 前 额 叶 (Naitanen et al., 2007). MMN 的 潜伏 期 和 波幅 会 受 标 准 刺 激 和 变异 刺激 
之 间 声 学 差异 (Sams, Paavilainen, Alho, & Niiitinen，1985)、 变 异 刺激 出 现 概 率 (Taaseh， 
Yaron, & Nelken, 2011) 以 及 刺激 时 域 信息 复杂 性 (Lumaca，Trusbak Haumann, Brattico, 
Grube, & Vuust, 2018) 等 因素 的 影响 。 值 得 注意 的 是 ， 随 着 标准 刺激 和 变异 刺激 之 间 差 
FRK, MMN 的 潜伏 期 提前 且 会 和 听觉 NIMES, SRI. SAT, 
N1 更 多 的 是 和 刺激 的 物理 属性 相关 ， 而 很 少 受 刺激 间 差 异 的 影响 。 因 此 ，MMN 的 潜 
伏 期 会 随 变 异 程度 的 不 同 而 发 生 改 变 ， 相 比 之 下 NI 的 潜伏 期 则 相对 稳定 (Naiitinen & 
Picton, 1987)。 


尽管 MMN 被 认为 反映 的 是 前 注意 加 工 (pre-attentive processing)， 无 需 意识 参与 ， 

但 MMN 的 波幅 和 潜伏 期 仍 会 受到 自 上 而 下 的 注意 和 预期 的 影响 (Chennu et al., 2013; 
Heilbron & Chait, 2018)， 且 两 种 影响 因素 的 作用 方式 并 不 相同 (Auksztulewicz & Friston, 
2015; Cacciaglia, Costa-Faidella, Zarnowiec, Grimm, & Escera, 2019)。 在 某 些 情况 下 ， 注 
意 条 件 下 的 MMN 会 与 反映 注意 变异 探测 (attentional deviance detection) 的 N2b 成 分 的 
me, Ema N2b 的 潜伏 期 要 晚 于 MMN， 大 约 在 变异 刺激 呈现 后 200~300 ms 达 
到 峰值 。 此 外 ，N2b 的 头皮 分 布 也 与 MMN 的 不 同 ， 主 要 集中 在 中 央 顶 叶 且 极 性 在 乳 
突 位 置 不 反 转 ， 提 示 其 发 生源 可 能 在 听觉 皮层 之 外 (Niiitinen, Simpson, & Loveless, 
1982). XERE, MMN 可 以 分 为 两 个 阶段 : 标准 形成 (standard formation) 和 变异 探测 
(deviance detection)。 标 准 形成 是 MMN 生成 的 基石 ， 为 变异 探测 确立 了 基础 ， 当 一 个 
变异 刺激 被 探测 到 时 ，MMN 随 之 被 诱发 (Sussman, 2007)。 一 般 来 说 ， 标 准 形成 阶段 会 
受到 注意 、 预 期 和 音乐 训练 等 自 上 而 下 的 因素 的 影响 ， 而 变异 探测 阶段 不 受 注意 影响 ， 
反映 的 是 真正 的 前 注意 感觉 加 工 (Sussman, Winkler, & Wang, 2003)。 但 是 需要 指出 的 是 ， 
对 变异 刺激 的 探测 依赖 于 标准 形成 过 程 中 对 输入 声音 序列 规则 的 提取 以 及 其 在 大 脑 中 
的 表征 或 记忆 痕迹 (Niiitinen & Picton, 1987)。 最 直接 的 证 据 来 自 Sussman, Winkler, 
Huotilainen, Ritter 和 Näätänen (2002) 的 研究 。 在 这 项 研究 中 ， 研 究 者 给 被 试 星 现 声音 
序列 并 要 求 被 试 或 者 忽略 声音 (ignore condition)， 或 者 注意 音 高 变化 (attend-pitch 
condition)， 或 者 注意 声音 模式 违反 (attend-pattern condition)。 结 果 发 现 ， 在 忽略 声音 和 
注意 音 高 变化 条 件 下 ， 变 异 音 都 会 诱发 MMN 成 分 ， 然 而 这 一 现象 并 没有 在 注意 声音 
模式 条 件 下 出 现 。 这 主要 是 因为 在 注意 声音 模式 条 件 下 ， 局 部 的 变异 音 会 被 当 作 整 体 
的 标准 音 ， 因 此 并 没有 违背 之 前 建立 起 来 的 规则 ， 提 示 听 觉 皮 层 对 声音 表征 的 保持 会 
受到 自 上 而 下 注意 的 影响 ， 进 而 影响 到 MMN 变异 探测 过 程 。 此 外 ， 虽 然 注 意 音 高 条 
件 比 忽略 声音 条 件 多 诱发 出 了 N2b 成 分 ， 但 这 两 种 条 件 下 的 MMN 成 分 相当 ， 表 明 注 
意 并 不 会 影响 MMN 变异 探测 过 程 本 身 (Sussman et al., 2002; Sussman et al., 2003). 


目前 学 术 界 对 MMN 的 解释 主要 依赖 于 两 大 假说 : 适应 假说 (adaptation hypothesis) 
和 记忆 痕迹 假说 (nemory-trace hypothesis)。 适 应 假说 主要 从 神经 元 水 平 来 解释 MMN 
现象 ， 认 为 神经 元 细胞 对 区 分 标准 刺激 和 变异 刺激 各 维度 特征 具有 高 度 选 择 性 ， 即 对 
标准 刺激 和 变异 刺激 响应 的 神经 元 细胞 的 集合 并 不 完全 一 致 。 频 繁重 复出 现 的 标准 刺 
激 会 让 负责 对 标准 刺激 做 出 Nl 响应 的 神经 元 细胞 出 现 适 应 ， 然 而 对 变异 刺激 做 出 N1 


响应 的 神经 元 细胞 则 处 于 一 种 未 适应 的 状态 ， 因 此 会 在 变异 刺激 出 现时 表现 为 增强 的 
NI 响应 。 该 假说 指出 这 种 神经 反应 是 一 种 刺激 特异 性 适应 ， 而 且 并 没有 单独 的 大 脑 区 
域 负责 产生 MMN, KE MMN 并 不 是 一 个 独立 的 成 分 ， 而 是 延 时 衰弱 的 N1 成 分 
(Jääskeläinen et al., 2004; May & Tiitinen, 2010)。 然 而 ， 现 有 实验 数据 无 法 完全 文 持 这 
一 假说 (Niiitinen, Jacobsen, & Winkler, 2005)。 例 如 ， 变 异 音 能 够 在 没有 诱发 N1 的 情况 
下 诱发 MMN(Yabe, Tervaniemi, & Reinikainen, 1997; Yabe et al., 1998)。 相 比 之 下 ， 传 
统 的 记忆 痕迹 理论 认为 MMN 是 一 个 独立 的 反映 失 匹 配 成 分 的 信号 。 当 大 脑 接 收 到 声 
音 刺激 后 ， 会 和 基于 先前 声音 序列 形成 的 记忆 模板 (memory template) 进 行 比较 ， 当 大 
脑 探 测 到 新 的 声音 输入 与 记忆 模板 不 一 致 时 ， 就 会 产生 MMN。 因 此 ， 该 假说 认为 
MMN 反映 的 是 一 个 更 高 水 平 的 对 比 系统 : 当 大 脑 探 测 到 差异 ， 系 统 产生 误差 信号 ， 
并 调整 记忆 模板 (Naitinen et al., 1989)。 与 传统 的 记忆 痕迹 理论 的 观点 类 似 ， 预 测 编码 
理论 也 强调 MMN 反映 的 不 是 简单 的 适应 ， 而 是 一 种 失 匹配 信号 。 但 是 和 传统 的 记忆 
痕迹 理论 不 同 的 地 方 在 于 ， 预 测 编码 理论 认为 系统 所 产生 的 误差 信号 是 由 感觉 输入 和 
预测 模型 不 匹配 所 产生 的 ， 也 就 说 MMN 反映 的 是 输入 不 符合 预测 刺激 后 大 脑 表征 更 
新 的 过 程 ， 是 大 脑 对 未 来 事件 主动 预测 的 过 程 (Friston, 2005, 2010; Winkler, 2007)。 目 
前 ， 有 越 来 越 多 的 证 据 表 明 大 脑 是 以 一 种 主动 预测 的 方式 与 外 界 复杂 环境 进行 交互 ， 
而 非 被 动 的 通过 感觉 系统 接收 外 界 信 息 (Friston, 2018)。 


MMN 是 指 变异 刺激 诱发 的 神经 反应 和 标准 刺激 诱发 的 神经 反应 之 间 的 差异 ， 因 此 
MMN 幅 值 的 增 大 ， 一 方面 可 能 是 在 变异 探测 阶段 由 于 大 脑 对 变异 刺激 反应 的 增 大 导 
致 ， 另 一 方面 也 可 能 是 在 标准 形成 阶段 由 于 大 脑 对 标准 刺激 反应 的 减 小 导致 。 例 如 有 
研究 发 现 ， 随 着 标准 刺激 个 数 的 增加 ，MMN 波幅 增 大 的 主要 原因 并 不 是 因为 变异 刺 
激 出 现 概率 减 小 而 诱发 了 更 大 的 负 向 波 ， 而 是 因为 标准 刺激 在 呈现 后 50~250 ms 之 间 
诱发 出 一 个 正 向 慢 波 (包括 P50、N1 和 P 成 分 )， 这 个 慢 波 又 被 称 为 重复 正 波 
(repetition positivity)(Haenschel, Vernon, Dwivedi, Gruzelier, & Baldeweg, 2005)。 换 言 之 ， 
MMN 本 身 所 包含 的 两 个 不 同 的 神经 反应 阶段 (标准 形成 和 变异 探测 )， 分 别 表现 为 重复 
抑制 和 预测 误差 。 下 文 将 分 别 从 这 两 个 方面 讨论 听觉 皮层 如 何以 预测 编码 的 方式 对 声 
音 重 复 和 听觉 变化 进行 加 工 。 


2.2 重复 抑制 


随 着 标准 刺激 的 重复 出 现 ， 大 脑 对 声音 规则 的 表征 逐渐 形成 ， 在 神经 反应 上 则 表 
现 为 重复 抑制 (Baldeweg, 2006)， 其 神经 发 生源 涉及 听觉 和 非 听 觉 区 域 (Recasens, Leung, 
Grimm, Nowak, & Escera，2015) 。 实 际 上 ， 不 同 领域 的 研究 者 经 常 使 用 习惯 化 
(habituatiom)、 不 应 性 (refractoriness)、 适 应 (adaptation) 来 解释 重复 抑制 现象 Budd, Barry, 
Gordon, Rennie, & Michie, 1998)。 这 些 基于 不 同 视角 的 表达 方式 或 多 或 少 阻碍 了 研究 者 
们 对 重复 抑制 的 理解 ， 造 成 了 一 定 的 混乱 。 有 具体 而 言 ， 习 惯 化 主要 是 从 心理 学 视角 出 
发 ， 指 的 是 由 于 重复 呈现 某 一 刺激 而 导致 其 失去 新 异性 后 ， 对 其 反应 减弱 的 现象 。 按 
照 习惯 化 假设 ， 可 以 做 出 以 下 三 个 预测 : (D) 在 出 现 习惯 化 后 ， 无 论 刺 激 如 何 变化 ( 变 大 
或 者 变 小 )， 一 定 会 出 现 一 个 去 习惯 化 (dishabituation) 的 过 程 ，(2) 习 惯 化 是 随 着 刺激 重 
复 呈 现 而 逐渐 形成 的 ， 因 此 对 重复 刺激 的 反应 也 应 该 是 逐渐 减弱 的 ，(3) 短 时 间 内 习惯 
化 不 会 受到 刺激 之 间 的 间隔 (inter-stimulus interval, ISD 的 影响 。 然 而 ， 对 去 习惯 化 的 预 
测 并 没有 得 到 实验 数据 的 支持 (Barry,，Cocker, Anderson, Gordon, & Rennie, 1992; 
Muenssinger et al., 2013; Rosburg et al., 2006)。 此 外 ，Ritter, Vaughan 和 Costa (1968) 发 
现 个 体 的 电 生理 指标 在 刺激 重复 出 现 几 次 之 后 就 迅速 降低 ， 而 不 是 逐渐 降低 ， 并 且 这 
种 现象 仅 在 ISI 为 2 s 时 出 现 ， 在 ISI 为 10 s 时 并 没有 发 现 ， 提 示 刺 激 重复 出 现 所 造成 
的 神经 反应 减弱 并 不 是 一 个 简单 的 习惯 化 现象 。 不 应 性 以 及 适应 表述 的 是 一 种 神经 生 
里 现象 ， 即 神经 反应 的 减弱 是 由 听觉 神经 元 产生 动作 电位 后 的 不 应 性 或 者 神经 元 适应 
导致 的 May & Tiitinen, 2010)。 然 而 ， 神 经 元 的 不 应 期 都 是 毫秒 级 的 ， 因 此 用 神经 元 的 
不 应 性 来 解释 MMN 并 不 合适 。 基 于 这 个 原因 ，O'Shea (2015) 建 议 用 适应 来 替代 不 应 
性 ， 但 这 种 做 法 需要 谨慎 对 待 (Stefanics, Kremlacek, & Czigler, 2016). 


按照 预测 编码 的 观点 ， 重 复 抑制 不 仅 与 先前 刺激 的 发 生 率 相关 ， 还 与 未 来 刺激 的 
可 预测 性 有 关 ， 即 重复 抑制 不 仅 包 含 由 刺激 重复 出 现 本 身 所 导致 的 神经 反应 抑制 ， 也 
包含 由 刺激 重复 出 现 而 产生 的 预期 所 导致 的 神经 反应 抑制 (Grotheer & Kovacs, 2016; 
Winkler, Denham, & Nelken, 2009)。 最 早 的 实验 证 据 来 自 Summerfield, Trittschuh, Monti, 
Mesulam 和 Egner (2008) 对 面孔 加 工 的 研究 。 研 究 者 通过 操控 刺激 重复 出 现 的 概率 ， 发 
现 当 刺 激 重复 不 可 预测 时 大 脑 所 表现 出 的 重复 抑制 减 小 ， 表 明 重 复 抑制 是 大 脑 在 加 工 
不 可 预期 刺激 时 所 产生 的 自 上 而 下 的 感知 预测 误差 。 在 听觉 模 态 的 研究 中 ， 较 早 的 证 
据 来 自 Costa-Faidella, Baldeweg, Grimm 和 Escera (2011) 对 刺激 呈现 时 间 的 可 预测 性 如 
何 影响 重复 抑制 的 探讨 。 该 研究 采用 了 徘徊 标准 频率 范式 (toving standard frequency 


paradigm)， 在 这 种 oddball 变 式 中 ， 由 3 个 、6 个 和 12 个 单 音 组 成 的 三 种 声音 序列 随 
机 呈现 ， 每 个 序列 内 部 的 所 有 单 音 音 高 一 致 。 这 样 的 操作 可 以 保证 每 个 序列 中 的 第 一 
个 音 较 前 一 个 序列 而 言 是 一 个 低 概率 的 变异 刺激 ， 而 序列 中 的 最 后 一 个 音 是 该 序列 中 
高 概率 的 标准 刺激 。 有 具体 实验 中 ， 根 据 序 列 内 刺激 间 间 隔 是 否 固定 ， 实 验 试 次 被 划分 
为 两 类 : 可 预测 试 次 和 不 可 预测 试 次 。 结 果 发 现 ， 当 被 试 被 动听 声音 序列 时 ， 相 比 于 
可 预测 试 次 ， 不 可 预测 试 次 所 诱发 的 重复 抑制 效应 减弱 ， 表 现 为 重复 正 波 早 期 成 分 (如 
N1) 的 消失 和 后 期 成 分 的 完整 无 损 (~>200 ms， 如 P2)。 这 一 结果 也 提示 了 时 间 可 预测 性 
(“when”) 在 听觉 皮层 水 平 上 对 刺激 特异 性 记忆 痕迹 形成 的 影响 ， 而 且 这 种 影响 可 能 在 
听觉 加 工 皮 层 下 (subcorticaD) 阶 段 己 经 存在 (Gorina-Careta, Zarnowiec, Costa-Faidella, & 


Escera, 2016). 


类 似 地 ，Wacongne, Changeux 和 Dehaene (2012)i8 i lal Be isk JH 20 HL PS E 
AB 和 偶尔 重复 呈现 声音 对 AA， 让 被 试 在 听 到 A 后 产生 对 B 出 现 的 额外 预期 。 按 照 预 
测 编码 的 假设 ， 由 于 AA 出 现 的 概率 很 小 ， 是 不 可 预期 刺激 ， 因 此 不 存在 因 刺激 重 复 
出 现 而 产生 的 预期 抑制 ， 即 AA 会 比 AB 诱发 更 大 的 神经 反应 。 实 验 结 果 也 确实 支持 
了 这 种 假设 ， 而 且 这 一 结果 并 不 能 简单 地 归结 为 大 脑 中 可 能 存在 更 高 级 的 神经 元 特异 
性 地 对 AB 模式 反应 ( 即 适 应 观点 )， 因 为 当 AA 和 AB 刺激 间 间 隔 时 间 远 大 于 突 触 抑制 
的 恢复 时 间 时 ，AA 依旧 诱发 了 MMN。Todorovic, van Ede, Maris 和 de Lange (2011) 的 
研究 也 得 到 了 相似 的 结果 ， 发 现 听觉 皮层 中 存在 对 AA 的 重复 抑制 现象 ， 但 这 种 抑制 
在 AA 不 可 预期 时 变 小 ， 说 明 重 复 抑制 中 存在 预期 抑制 。 以 上 结果 丝 表 明 对 未 来 事件 
内 容 (“what”) 的 预期 也 会 影响 重复 抑制 。 在 随后 的 研究 中 ，Todorovic 和 de Lange (2012) 
通过 正 交 操控 重复 和 预期 ， 首 次 尝试 从 重复 抑制 中 分 离 预 期 抑制 。 结 果 发 现 ， 重 复 和 
预期 对 听觉 响应 的 影响 阶段 并 不 相同 ， 且 不 存在 交互 。 有 具体 来 说 ， 受 重复 影响 发 生 的 
时 间 更 早 (大 约 在 刺激 呈现 后 40~60 ms)， 而 受 预期 影响 的 时 间 相 对 较 晚 (大 约 在 刺激 呈 
现 后 100~200 ms)。 相 比 之 下 ， 重 复 和 预期 都 会 影响 到 晚期 反应 (200~500 ms)。 这 也 提 
示 感 觉 反应 在 神经 加 工 的 时 间 进 程 中 受 不 同调 节 作 用 的 影响 。 


I 


如 上 文 所 述 ， 大 量 的 实验 证 据 表 明 在 标准 刺激 呈现 阶段 ( 即 标准 形成 阶段 )， 大 脑 不 
仅 会 因为 刺激 重复 出 现 本 身 减弱 由 标准 刺激 诱发 的 神经 反应 ( 即 重复 抑制 )， 也 会 提取 
刺激 间 的 内 在 关系 并 在 不 同 的 加 工 水 平 建立 对 下 一 个 刺激 的 预期 ( 即 预期 抑制 )。 前 者 


可 以 看 作 是 一 种 基于 刺激 本 身 出 现 概率 的 低 水 平 预期 ， 而 后 者 可 以 被 认为 是 基于 刺激 
之 间 更 复杂 的 统计 规律 的 高 水 平 预 期 ， 它 们 都 反映 了 对 重复 声音 的 预测 编码 。 


2.3 预测 误差 

在 变异 刺激 呈现 后 ， 随 着 标准 刺激 重复 出 现 而 建立 起 的 规则 被 违背 ， 预 测 误差 信 
号 产生 (Winkler & Schroger, 2015)。 为 了 检验 不 同 水 平 的 规则 违背 ( 即 局 部 和 整体 ) 对 
MMN 的 影响 ，Wacongne 等 人 (2011) 向 被 试 呈现 由 多 个 相同 单 音 组 成 的 声音 序列 (如 
XXXXX)， 并 通过 改变 最 后 一 个 音 产 生 局 部 变异 (如 XXXX 了 到 和 操控 不 同类 型 声音 序列 
的 发 生 概 率 产 生 整 体 变异 (如 75% XXXXX, 15% XXXXY, 10% XXXX_). RRI, 
当局 部 变异 因为 发 生 概率 低 而 不 可 预期 时 ( 即 XXXXX 组 块 中 的 XXXXY 试 次 ) 要 比 其 
发 生 概率 高 而 可 预期 时 ( 即 XXXXY 组 块 中 的 XXXXY 试 次 ) 诱 发 更 大 的 MMN， 这 也 符 
合 预测 编码 理论 的 假设 ， 表 明 存 在 更 高 等 级 的 预测 可 以 抵消 局 部 变异 所 诱发 的 失 匹配 
信号 。 此 外 ， 在 XXXXY 组 块 中 ， 并 无 局 部 变异 的 XXXXX 试 次 也 诱发 了 新 异 反 应 ， 
为 听觉 皮层 中 存在 更 高 等 级 的 预测 提供 了 证 据 。 然 而 ， 这 种 前 瞻 性 的 层级 式 预 测 会 因 
睡眠 而 被 干扰 ， 但 反映 信息 失 匹 配 早期 加 工 的 NI, N2 等 成 分 不 受 影响 (Strauss et al., 
2015)， 提 示 很 可 能 存在 独立 的 加 工 阶 段 对 失 匹 配 信息 进行 加 工 ， 即 不 受 睡 眠 影响 的 被 
动 适应 阶段 和 受 睡眠 影响 的 主动 预测 阶段 。 


感觉 系统 是 分 层 组 织 的 且 不 同 层 的 神经 元 结构 相似 ， 因 此 相似 的 预测 编码 计算 原 
理 可 以 在 大 脑 皮层 的 多 个 层级 水 平 下 适用 (Friston, 2005)。 这 就 意味 着 在 预测 编码 理论 
下 每 个 层级 中 都 存在 因为 违背 预测 而 产生 的 预测 误差 和 自 上 而 下 传递 而 来 的 预测 。 然 
而 ， 如 何 从 预测 误差 信号 中 分 离 出 预测 信号 一 直 是 预测 编码 研究 中 的 一 个 难题 
(Heilbron & Chait, 2018)。 为 解决 这 一 问题 ， 很 多 研究 从 声音 序列 中 缺失 刺激 (omission， 
即 无 任何 刺激 输入 ) 所 诱发 的 神经 反应 入 手 ， 间 接 证 明 听 觉 皮 层 对 感觉 输入 的 主动 预测 。 
有 具体 来 说 ， 刺 激 缺 失 是 刺激 持续 时 间 改 变 诱 发 MMN 中 的 极端 情况 ， 即 刺激 时 长 为 0 
(Yabe et al,1997)。 由 于 缺失 刺激 排除 了 物理 刺激 本 身 的 干扰 ， 因 此 其 所 诱发 的 MMN 
被 认为 反映 的 是 听觉 加 工 中 主动 预测 与 无 感觉 输入 之 间 的 失 匹 配 。SanMiguel， 
Widmann, Bendixen, Trujillo-Barreto 和 Schroger (2013) 让 被 试 自主 按键 生成 声音 并 操控 
按键 后 出 现 声音 的 概率 (88%，50% 或 者 0%)， 结 果 发 现 只 有 按键 后 更 可 能 得 到 声音 反 
馈 条 件 下 的 声音 缺失 才 会 诱发 MMN， 证 明 对 缺失 刺激 的 神经 反应 也 需要 建立 在 按键 
生成 声音 可 预测 的 前 提 下 。 而 且 这 种 可 预测 性 不 仅 需要 基于 刺激 出 现 的 时 间 同 时 也 需 


要 基于 刺激 的 内 容 ， 否 则 个 体 无 法 形成 准确 的 预测 (SanMiguel, Saupe, & Schroger, 
2013)。 


Chennu 等 人 (2016) 采 用 了 与 Wacongne 等 人 (2011) 类 似 的 研究 范式 ， 即 在 连续 呈现 
的 五 音 序 列 中 ， 第 五 个 音 可 能 是 高 出 现 概率 (74%) 的 整体 标准 刺激 (AAAAA 或 BBBBB)， 
可 能 是 低 出 现 概 率 (13%) 的 整体 变异 (AAAAB 或 BBBB4)， 也 可 能 是 低 出 现 概率 (139%) 
的 缺失 刺激 (AAAA._ 或 BBBB_)。 通 过 与 缺失 音 可 预测 的 两 个 额外 的 控制 条 件 对 比 ， 结 
果 发 现 只 有 当 缺 失 发 生 在 不 可 预测 时 MMN 才 被 诱发 。 这 一 发 现 也 表明 对 声音 缺失 的 
神经 反应 是 预测 的 结果 ， 而 非 被 动 的 神经 振荡 的 延续 效应 (carry-over effect), Ezr SHR 
失 刺 激 MMN 的 预测 本 质 。Wacongne 等 人 (2011) 认为 当 个 体 预期 某 个 变异 刺激 发 生 的 
时 候 ， 这 个 刺激 的 缺失 实际 上 违背 了 两 种 预期 : 一 种 是 对 声音 序列 中 最 后 一 个 声音 刺 
激 会 出 现 的 局 部 预期 ， 即 对 “会 有 声音 ”的 预期 ， 一 种 是 基于 出 现 概 率 等 对 声音 序列 
中 最 后 一 个 声音 刺激 是 什么 的 更 高 水 平 的 预期 ， 即 对 “具体 声音 内 容 ” 的 预期 。 而 且 
需要 强调 的 是 ， 缺 失 刺激 诱发 的 MMN 幅 值 在 注意 条 件 下 要 比 非 注意 条 件 下 大 (Chennu 
et al., 2016; Chouiter et al., 2015)， 提 示 缺 失 刺 激 MMN 受 注意 的 调节 ， 这 也 与 预测 编码 
模型 中 强调 注意 可 以 调节 预测 的 强度 和 准确 度 的 观点 相 一 致 (Auksztulewicz & Friston, 
2015)。 


关于 预测 和 预测 误差 分 离 更 直接 的 证 据 来 自 Diirschmid 等 人 (2018) 的 研究 ， 他 们 假 
设 发 生 在 下 一 个 刺激 呈现 之 前 的 预测 信号 最 能 体现 前 瞻 主 动 的 预测 过 程 。 通 过 重新 分 
析 Diirschmid 等 人 (2016) 对 手术 病人 被 动 接 受 声音 序列 的 颅 内 皮层 记录 数据 。 结 果 发 现 ， 
与 不 可 预期 的 变异 刺激 相 比 ， 病 人 前 额 叶 皮层 的 宽 波 段 高 频 振幅 (high-frequency 
amplitude, HFA) 在 可 预期 的 变异 刺激 呈现 之 前 下 降 ， 这 与 此 种 条 件 下 刺激 呈现 后 误差 
信号 的 降低 显著 相关 ， 提 示 和 刺激 前 HFA 的 降低 和 对 可 预期 变异 神经 反应 的 降低 之 间 存 
在 内 在 联系 。 此 外 ， 他 们 还 观察 到 随 着 不 可 预测 条 件 下 声音 序列 中 标准 刺激 的 重复 出 
现 ， 刺 激 前 的 HFA 降低 。 由 于 在 不 可 预测 条 件 下 不 断 出 现 重 复 刺激 ， 意 味 着 下 一 个 刺 
激 为 变异 刺激 的 可 能 性 增加 ， 这 也 从 另 一 个 角度 说 明 HFA 大 小 和 变异 出 现 可 能 性 之 间 
的 关系 ， 为 存在 独立 于 预测 误差 的 预测 信和 号 提供 了 证 据 。 


综 上 ， 当 变异 刺激 不 符合 预测 的 时 候 ， 大 脑 产 生 预 测 误 差 信 号 ， 并 且 自 下 而 上 传 
输 到 更 高 级 的 加 工 水 平 ， 同 时 也 会 调整 内 在 模型 从 而 产生 新 的 自 上 而 下 的 预测 并 向 下 


传递 用 于 解释 消除 预测 误差 ， 以 减少 大 脑 的 计算 负荷 和 感知 的 不 确定 性 ， 提 高 加 工效 
率 。 


3 ”基于 动物 模型 的 听觉 预测 编码 研究 
人 类 和 动物 在 某 些 神经 加 工 过 程 中 存在 极 大 的 相似 性 ， 因 此 基于 动物 模型 的 研究 
结果 在 一 定 程度 上 可 以 推 用 到 人 类 。 采 用 局 部 场 电位 (Jocal field potentials，LFPs)、 硬 
膜 外 事件 相关 电位 (epidural ERPs)、 多 通道 记录 (multiunit recordings) 等 技术 有 助 于 揭示 
听觉 皮层 中 预测 编码 的 神经 基础 。 虽 然 大 多 数 与 听觉 预测 相关 的 早期 动物 研究 主要 聚 
焦 在 初级 听觉 皮层 (primary auditory cortex，A1) 神 经 元 的 刺激 特异 性 适应 (SSA)， 只 有 
很 少 一 部 分 的 动物 实验 是 真正 以 听觉 皮层 中 的 预测 编码 为 主要 研究 对 象 。 但 是 ， 目 前 
越 来 越 多 基于 动物 模型 的 预测 编码 研究 提示 皮层 SSA 并 不 是 单纯 的 神经 元 细胞 对 特异 
性 刺激 的 适应 ， 其 本 身 也 受到 自 上 而 下 的 因素 的 影响 ， 这 也 提示 Al 神经 元 可 能 是 预 
测 编码 的 神经 基础 。 因 此 ， 人 类 和 动物 研究 的 结合 有 助 于 研究 者 对 预测 编码 理论 的 深 
入 理解 和 验证 (Heilbron & Chait, 2018)。 


3.1 SSA 

与 人 类 MMN 类 似 ，SSA 指 的 是 在 Al 神经 元 中 记录 到 的 对 重复 刺激 的 选择 性 反应 
减弱 (Fishman & Steinschneider, 2012; von der Behrens, Bauerle, Kossl, & Gaese, 2009). 
因此 ，SSA 也 常 被 认为 是 单 细胞 水 平 的 MMN (Nelken, 2014; Ulanovsky, Las, & Nelken, 
2003). Szymanski, Garcia-Lazaro 和 Schnupp (2009) 使 用 oddball 范式 ， 记 录 了 和 氯胺酮 
(ketamine) RRR E FAK Al 神经 元 对 标准 音 和 变异 音 的 LFPs， 并 对 其 进行 了 电流 源 
密度 分 析 (current source density analysis)。 结 果 发 现 ， 同 一 频率 的 声音 作为 变异 刺激 时 
要 比 其 作为 标准 刺激 时 诱发 更 大 的 神经 反应 ， 而 且 Al 各 层 神经 元 的 响应 大 小 并 没有 
显著 性 差异 。 类 似 地 ， 利 用 语音 中 的 元 音 作为 刺激 材料 ， 发 现在 清醒 大 鼠 听 觉 皮层 深 
层 GV-VD 的 神经 元 对 违背 预期 的 声音 刺激 有 响应 (Eriksson & Villa, 2005)。 然 而 ， 有 研 
究 指 出 大 鼠 对 变异 刺激 的 探测 和 对 标准 刺激 的 适应 在 下 丘 (Gnferior colliculus) 就 已 经 可 
以 体现 (Malmierca，Cristaudo, Perez-Gonzalez, & Covey, 2009)。 最 近 的 证 据 也 表明 早 在 
小 鼠 的 耳蜗 核 (cochlear nucleus) 就 发 现 了 SSA 的 存在 ， 说 明 非 特异 性 的 短 时 适应 可 能 
早 在 听觉 神经 纤维 就 已 经 开始 (Duque, Pais, & Malmierca, 2018)。 值 得 注意 的 是 ， 上 听觉 
信息 的 传递 主要 通过 两 条 通路 : 丘 系 (lemniscal) 和 非 丘 系 (nonlemniscal) 通 路 。 对 于 丘 系 


通路 而 言 ， 其 包含 的 神经 元 更 多 的 是 对 声音 刺激 的 物理 特征 而 非 刺 激 之 间 的 关系 响应 ， 
因此 皮层 下 丘 系 部 分 的 神经 元 并 不 会 产生 预测 误差 ， 相 比 之 下 ， 非 丘 系 通路 中 的 神经 
元 更 多 地 受 皮 层 调 节 ， 可 以 接收 自 上 而 下 的 预测 并 传递 自 下 而 上 的 预测 误差 ， 为 加 工 
复杂 听觉 信息 提供 了 可 能 性 (Parras et al., 2017)。 已 有 研究 证 明 可 以 在 位 于 皮层 下 核 团 
非 丘 系 部 分 神经 元 中 记录 到 完整 的 或 者 更 强烈 的 SSA， 而 在 丘 系 神经 元 中 仅 能 部 分 记 
录 到 SSA(Malmierca et al., 2009; Polterovich, Jankowski, & Nelken, 2018)。 因 此 ， 发 生 时 
间 较 早 的 皮层 下 SSA(< 100 ms) 虽 然 不 存在 心理 预期 等 成 分 ， 但 在 一 定 程 度 上 可 能 反映 
了 早期 的 变异 探测 。 


然而 ， 目 前 学 术 界 对 皮层 SSA 和 MMN 之 间 的 确切 关系 仍 存在 争议 。 一 方面 ， 皮 
JB SSA 和 MMN 特征 相似 (Grimm, Escera, & Nelken, 2016; Ulanovsky et al., 2003)， 主 要 
表现 为 它们 都 是 由 刺激 间 差 异 导致 的 。 皮 层 SSA 和 MMN 的 幅 值 大 小 都 与 变异 出 现 的 
概率 负 相 关 ， 与 标准 刺激 与 变异 刺激 之 间 的 差异 大 小 正 相 关 ; 另 一 方面 ， 很 多 证 据 表 
明 皮 层 SSA 并 非 是 MMN 的 直接 基础 ， 两 者 存在 本 质 性 的 差异 (Carbajal & Malmierca, 
2018)。 例 如 ， 皮 层 SSA 要 比 MMN 出 现 的 更 早 ， 大 约 在 变异 刺激 呈现 后 100 ms 之 内 
就 能 观测 到 ， 因 此 SSA 可 能 是 Al 记录 到 的 MMN 的 前 号 ， 而 MMN 本 身 可 能 是 初级 
和 更 高 级 皮层 反应 的 结合 体 。 此 外 ，NMDA 拷 抗 剂 可 以 干扰 MMN， 但 是 对 皮层 SSA 
无 任何 影响 (Khouri & Nelken, 2015). 


3.2 听觉 皮层 神经 元 中 的 预测 

虽然 SSA 这 一 命名 本 身 强 调 了 刺激 特异 性 和 适应 ， 但 它 是 否 真 的 只 是 神经 元 对 特 
定 刺激 的 简单 适应 仍 不 确定 。Ulanovsky 等 人 (2003) 发 现 猫 的 Al 神经 元 对 出 现 频率 低 
的 音 高 和 音 强 都 会 有 更 大 的 反应 ， 类 似 于 皮层 水 平 的 MMN， 因 此 认为 Al 的 神经 元 不 
仅 加 工 声音 特征 ， 可 能 还 涉及 感觉 记忆 和 变异 探测 ， 即 MMN 在 Al 的 发 生源 可 以 用 
皮层 上 的 SSA 来 解释 。 在 后 续 研 究 中 ，Ulanovsky, Las, Farkas 和 Nelken(2004) 将 麻醉 
状态 下 的 猫 暴露 在 以 固定 概率 独立 呈现 的 声音 对 序列 中 ， 发 现 SSA 的 诱发 不 仅 依赖 于 
当下 刺激 本 身 ， 同 时 也 依赖 于 一 段 时 间 内 (超过 秒 级 ) 的 刺激 序列 。 由 于 对 刺激 序列 的 
保持 或 加 工时 间 远 超过 突 触 抑制 所 持续 的 时 间 ， 因 此 不 能 简单 地 认为 SSA 只 是 由 突 触 
可 塑性 决定 的 (Taaseh et al., 2011; Yaron, Hershenhoren, & Nelken, 2012). 


Rubin 等 人 (2016) 重 新 分 析 了 Ulanovsky 等 人 (2004) 的 数据 ， 尝 试 量化 SSA 的 生成 
在 多 大 程度 上 依赖 于 以 往 信息 的 数量 和 细节 。 他 们 假设 大 脑 对 以 往 信 息 的 表征 是 一 种 
简化 的 表征 ， 以 用 于 对 未 来 事件 的 预测 。 通 过 利用 信息 论 来 定量 这 些 简 化 表征 的 复杂 
性 (complexity) 以 及 对 未 来 事件 所 携带 的 预测 信息 ， 研 究 者 发 现 Al 神经 元 的 神经 反应 
和 根据 刺激 序列 所 计算 出 来 的 理论 预测 误差 相关 。 对 某 些 神经 元 来 说 ， 预 测 误差 可 以 
解释 超过 50% 的 观测 变异 。 因 此 ， 他 们 推断 Al 神经 元 可 以 对 未 来 做 出 预测 。 更 多 的 
ee 通过 对 麻醉 和 清醒 大 鼠 听 觉 皮层 细胞 内 和 细胞 外 
记录 ， 发 现 大 鼠 对 声音 序列 的 结构 敏感 ， 表 现 为 对 随机 序列 会 比 对 周期 性 的 序列 诱发 
出 更 大 的 响应 ， 这 为 SSA 中 存在 预测 提供 了 有 力 的 证 据 。 此 外 ，Rummell, Klee 和 
Sigurdsson (2016) 通过 记录 并 对 比 小 鼠 听 觉 皮层 对 自发 生成 声音 和 非 自发 生成 声音 
神经 元 活动 ， 结 果 发 现 小 鼠 听 觉 神经 元 对 自己 动作 生成 的 声音 的 响应 减弱 ， 提 示 预 测 
加 工 可 能 是 声音 信息 在 神经 元 水 平 加 工 的 基础 。 


与 人 类 MMN 研究 类 似 ， 神 经 元 对 变异 刺激 的 响应 即 所 观察 到 的 皮层 SSA( 对 变异 
刺激 的 神经 反应 减 去 对 标准 刺激 的 神经 反应 )， 包 含 了 两 个 很 难 在 经 典范 式 所 诱发 的 
SSA 中 分 离 的 部 分 : 对 重复 刺激 的 抑制 和 对 新 异 刺激 违背 预期 的 反应 ， 即 真正 的 变异 
探测 (true deviance detection) 或 者 预测 误差 。Taaseh 等 人 (2011) 利用 多 种 标准 刺激 控制 

条 件 (many standard control condition)， 消 除了 因为 单一 标准 刺激 重复 出 现 所 诱发 的 预 
期 ， 因 此 认为 该 范式 下 记录 到 的 SSA 反映 的 是 真正 的 变异 敏感 性 (deviance sensitivity)。 
AAT TCE RPPEXX BX (halothane-anesthetized rats) 模 型 中 发 现 ， 单 一 标准 刺激 和 多 种 标准 刺激 

条 件 下 的 变异 刺激 在 听觉 皮层 诱发 的 SSA 大 小 相当 。 由 于 单一 标准 刺激 要 比 多 种 标准 
刺激 控制 条 件 的 疲劳 效应 大 ， 所 以 研究 者 认为 当 两 种 条 件 下 SSA 相当 的 时 候 ， 那 么 很 

可 能 是 因为 在 多 种 标准 刺激 控制 条 件 下 多 了 一 个 成 分 ， 即 对 变异 的 敏感 性 。 这 一 结果 
在 自由 活动 大 鼠 模型 中 得 到 了 进一步 的 证 实 (Polterovich et al., 2018)， 证 明 Al 中 存在 
真正 的 变异 探测 。 


ARRI, KE SSA 与 人 类 MMN 有 很 大 的 相似 性 ， 可 以 作为 反映 神经 元 水 平 变 
异 探测 的 指标 。 目 前 基于 猫 、 大 鼠 和 小 鼠 等 动物 模型 的 结果 都 表明 ， 皮 层 SSA 并 不 是 
单纯 的 神经 元 细胞 对 特异 性 刺激 的 适应 ， 其 本 身 也 受到 自 上 而 下 的 因素 的 影响 ， 这 也 
提示 Al 神经 元 可 能 是 预测 编码 的 神经 基础 。 然 而 ， 由 于 目前 仍 缺乏 直接 的 证 据 表 明 
听觉 皮层 中 存在 分 别 产生 预测 和 预测 误差 的 独立 神经 元 ， 因 此 未 来 需要 开展 更 多 真正 


以 听觉 预测 编码 为 主要 研究 对 象 的 动物 研究 。 此 外 ， 利 用 动物 模型 开展 SSA 的 研究 也 
有 助 于 我 们 揭示 预测 编码 如 何在 时 间 维 度 上 发 生 与 发 展 ， 例 如 在 语义 内 容 启动 等 听觉 
加 工 中 预测 编码 发 生 的 最 早 阶段 以 及 这 一 过 程 是 否 有 皮层 下 神经 元 的 参与 。 


4 ”总 结 与 展望 

预测 编码 理论 将 大 脑 看 作 是 一 个 分 级 组 织 且 高 度 主动 的 加 工 系统 ， 这 依赖 于 大 脑 
对 感觉 输入 的 持续 预测 并 根据 新 输入 的 信息 对 内 部 表征 进行 迭代 式 调 整 。 这 种 动态 的 
神经 活动 最 终 的 目的 在 于 减少 预测 误差 。 作 为 一 种 机 制 理论 模型 ， 预 测 编码 理论 受到 
了 极 大 的 欢迎 ， 并 被 用 于 解释 多 种 实证 数据 (Clark, 2013; Friston, 2010)。 然 而 ， 这 一 理 
论 目前 也 面临 着 巨大 的 挑战 (Friston, 2018)。 首 先 ， 其 核心 概念 不 明确 。 例 如 ， 目 前 学 
术 界 对 预测 的 精准 定义 仍 未 达成 共识 。 理 论 上 ，“ 预 测 ” 既 可 以 指 两 个 事件 之 间 的 相 
关 关 系 ， 也 可 以 指 两 个 事件 之 间 的 因果 关系 (Denham & Winkler, 2018)。 因 此 ， 研 究 者 
对 “预测 ”本 身 的 不 同 理解 ， 会 偏 倚 他 们 在 预测 编码 研究 中 的 重点 。 其 次 ， 基 于 实证 
研究 、 理 论 模 型 和 计算 建 模 等 不 同 研究 领域 ， 研 究 者 对 于 某 一 个 概念 往往 从 不 同 角度 
进行 表述 。 例 如 ， 对 重复 抑制 现象 心理 学 采用 “习惯 化 ”而 神经 生理 学 采用 “不 应 性 ” 
来 解释 。 这 也 造成 了 不 同学 科 间 对 预测 编码 理论 的 理解 存在 差异 。 最 后 ， 部 分 核心 假 
设 不 可 验证 (Kogo & Trengove, 2015)。 例 如 ， 预 测 编码 理论 认为 感觉 皮层 中 存在 独立 的 
神经 元 分 别 负责 预测 和 预测 误差 ， 然 而 这 一 假设 很 难 被 现 有 的 技术 所 验证 。 这 也 导致 
目前 仍 缺 乏 预测 编码 物质 基础 的 直接 证 据 (Heilbron & Chait, 2018)。 因 此 ， 有 研究 者 认 
为 预测 编码 可 能 更 多 的 是 一 种 计算 机 制 (决策 相关 )， 而 不 是 一 种 对 神经 反应 的 现象 学 
解释 (Denham & Winkler, 2018; Stefanics et al., 2016)。 


但 无 论 如 何 ， 预 测 编码 都 是 目前 感觉 研究 中 主流 的 理论 框架 ， 可 以 用 来 解释 多 种 
重要 的 听觉 感知 现象 。 面 对 现 有 的 挑战 ， 未 来 对 听觉 预测 编码 的 研究 可 以 集中 在 以 下 
几 个 方面 : (D 开展 跨 物种 研究 。 基 于 皮层 SSA 和 人 类 MMN 的 相似 性 ， 越 来 越 多 的 
研究 开始 认为 皮层 SSA 可 能 和 MMN 中 反映 变异 敏感 性 的 部 分 相关 。 而 且 ， 目 前 对 听 
觉 系统 中 的 SSA 本 号 已 经 开展 了 较为 充分 的 研究 ， 尤 其 是 对 其 分 子 和 网 络 机 制 以 及 其 
短 时 可 塑性 的 计算 原理 ， 这 也 为 进一步 理解 预测 编码 的 神经 环 路 提供 了 良好 的 研究 模 
型 。 因 此 ， 未 来 研究 中 可 以 利用 相同 的 研究 范式 分 别 记录 人 类 MMN 和 动物 皮层 SSA, 
以 更 好 地 了 解 听 和 觉 加 工 中 的 预测 编码 ， 并 尝试 寻找 其 物质 基础 ，(2) AAA H A 


oddball 范式 的 变 式 或 者 添加 实验 控制 组 ， 分 离 MMN 中 可 能 包含 的 不 同 成 分 (Harms et 
al., 2014; Symonds et al., 2017)。 例 如 在 人 类 和 动物 研究 中 分 离 重 复 抑制 与 预期 抑制 、 

分 离 预测 与 预测 误差 等 ， 用 以 寻找 听觉 加 工 中 存在 预测 编码 更 可 靠 的 证 据 ， 这 些 变 式 
和 控制 条 件 的 使 用 对 于 加 深 理解 预测 编码 模型 以 及 听觉 加 工 机 制 有 着 重要 的 意义 ; (3) 
从 神经 振荡 的 角度 探讨 预测 编码 可 能 的 物质 基础 (Morillon & Schroeder, 2015)。 已 有 研 
究 表明 包括 gamma 振荡 和 beta 振荡 在 内 的 神经 节律 可 能 是 大 脑 预测 刺激 内 容 和 刺激 时 
间 的 神经 基础 (Amal & Giraud, 2012)， 因 此 未 来 的 研究 可 以 关注 声音 重复 和 听觉 变异 对 
脑 电 信号 频 域 特征 的 影响 ， 从 不 同 的 角度 认识 和 理解 听觉 加 工 中 的 预测 编码 机 制 ; (4) 
从 预测 编码 的 视角 理解 更 高 级 的 听觉 现象 ， 并 联合 不 同 的 感觉 横 态 ， 加 深 我 们 对 感觉 
加 工 机 制 的 理解 。 目 前 预测 编码 模型 已 经 被 用 于 解释 多 种 高 级 听觉 加 工 的 现象 ， 如 音 
位 规则 (Ylinen et al., 2016)， 言 语感 知 (Sohoglu, Peelle, Carlyon, & Davis, 2012)， 言 语 生 


To 


(Okada, Matchin, & Hickok, 2018), 言语 理解 (Bendixen, Scharinger, Strauss, & Obleser, 
2014) 和 音乐 感知 (Koelsch, Vuust, & Friston, 2019; Salimpoor, Zald, Zatorre, Dagher, & 
McIntosh, 2015). 
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Predictive coding in auditory cortex: The neural responses to sound 


repetition and auditory change 


Abstract: Predictive coding is arguably one of the most important mechanisms to explain the 
interactions between brain and complex environment. Indeed, one of the main functions of 
sensory system is to predict upcoming events, which is vital for survival. Take auditory 
modality for instance. The neural responses to sound repetition and auditory change, such as 
mismatch negativity (MMN) and stimulus-specific adaptation (SSA), can be explained under 
a predictive coding view. As a theoretical framework, predictive coding is now facing some 
unresolved questions and challenges. However, combining human and animal studies under 
this framework will provide an excellent chance to investigate the neural mechanisms of 


auditory processing. 
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